1. Cenni metodologici
 
 

La fase di controllo e correzione dei dati consiste nell'individuazione e nel trattamento degli errori  (in senso generale, comprensivi cioè delle mancate risposte parziali) presenti nei dati raccolti mediante una certa indagine, allo scopo di garantire risultati finali qualitativamente migliori.
In generale, diciamo che una certa variabile rilevata in una data unità statistica è affetta da errore quando il suo valore non corrisponde al valore vero che essa presenta in quella unità. E' chiaro che la presenza di errori, di qualunque natura essi siano, può provocare distorsioni nelle distribuzioni delle variabili investigate, nelle stime finali dei dati (totali, medie, ecc.), e in tutte le analisi statistiche effettuate sui dati non corretti (Masselli et al. 1989).

La localizzazione delle risposte errate in un certo insieme di dati statistici è basata su diversi tipi di controlli, che possono essere classificati in tre categorie principali:
1. controlli di coerenza: verificano che prefissate combinazioni di valori assunti da variabili rilevate in una stessa unità soddisfino certi requisiti (regole di compatibilità);
2. controlli di validità o di range: verificano che i valori assunti da una data variabile siano interni all'intervallo di definizione della variabile stessa;
3. controlli statistici: utilizzati al fine di isolare quelle unità statistiche che presentano, per alcune delle variabili in esse contenute, valori che si discostano in modo significativo dai valori che le stesse variabili assumono nel resto delle unità campionarie o rispetto ad una rilevazione precedente.

Gli edit di coerenza o consistenza vengono utilizzati per la costruzione dei cosiddetti piani di compatibilità, oppure di incompatibilità, qualora gli edit rappresentino condizioni di incoerenza. Più rigorosamente, si definisce piano di compatibilità un insieme di vincoli (edit) non ridondanti e non contraddittori, che devono essere contemporaneamente soddisfatti da ogni unità statistica affinché l’informazione corrispondente possa essere considerata corretta.

Il controllo effettuato sui dati mediante un piano di compatibilità è di tipo intra-unità se utilizza le sole informazioni fornite da ogni singola unità osservata, è di tipo inter-unità quando i dati relativi ad una certa osservazione vengono confrontati con informazioni prodotte da altre osservazioni della stessa popolazione.

Gli edit componenti un piano di compatibilità possono essere distinti in:

1. regole formali, che derivano dalla struttura del modello, cioè direttamente dalle norme di compilazione e dai "percorsi interni" (salti) del modello;
2. regole sostanziali, che derivano da considerazioni di tipo statistico-matematico, o da conoscenze specifiche a priori del fenomeno oggetto di rilevazione.

E' chiaro che la natura degli edit (sia formali che sostanziali) di un piano di compatibilità è strettamente dipendente dal tipo di variabili (qualitative o quantitative) oggetto di verifica. Mentre nel caso di variabili qualitative, infatti, tali edit hanno la forma di relazioni logiche tra le variabili, nel caso di variabili quantitative le regole di compatibilità sono espresse in forma di relazioni statistico/matematiche (equazioni o disequazioni lineari, rapporti, ecc.).

Una volta individuati i record i cui valori violano uno o più vincoli del piano di compatibilità, il problema diventa la localizzazione delle variabili i cui valori devono essere considerati errati ed in quanto tali da sottoporre ad un passo di correzione.

Sia il problema della localizzazione dei record errati, sia quello dell'individuazione delle variabili che, per ogni record errato, sono da considerarsi responsabili della violazione di una o più regole di compatibilità, possono essere risolti adottando un approccio di tipo interattivo oppure automatico.

Nel caso dell’editing automatico, si deve distinguere il caso in cui si utilizzi software specificamente sviluppato per una data tipologia di rilevazioni, oppure generalizzato, cioè immediatamente adattabile a diverse tipologie di indagine.

Nell’ambito dell’editing di tipo automatico possiamo ulteriormente distinguere a seconda che per la costruzione della procedura di editing si adotti un approccio di tipo deterministico oppure probabilistico (Barcaroli et al 1999).

La fase di applicazione delle regole di dominio, di compilazione e di compatibilità ai dati grezzi non può che essere compiuta in modo deterministico: per ogni record, o per gruppi di record, vengono applicate tali regole che, se verificate, segnalano sicuramente la presenza di errori.

Ad esempio:

SE (sesso = maschio E professione = casalinga) ALLORA sussiste incompatibilità x

Una regola di questo tipo non individua, di per sé, l'errore che ne causa l'attivazione: infatti, il valore non vero può celarsi in una o nell'altra delle variabili, o in entrambe.
E' nella fase di localizzazione degli errori che diviene decisivo il tipo di approccio adottato. Nell'approccio deterministico, ad ogni situazione di incompatibilità segue, contestualmente, l'indicazione delle variabili che debbono considerarsi errate, e, in quanto tali, da imputare. Nell'esempio considerato avremo, per ipotesi:

SE (sesso = maschio E professione = casalinga) ALLORA sesso ¬ femmina

il che significa che, se in un record è attivata la condizione di incompatibilità "maschio/casalinga", la regola indica l'azione da effettuare per correggere l'errore, che consiste nell'imputare la modalità femmina alla variabile sesso.
Generalizzando, una volta attivate, mediante le regole di compatibilità, una o più condizioni di errore in un dato record, sono determinate a priori le azioni da intraprendere per riportare il medesimo record in una situazione di correttezza.

Le procedure deterministiche sono generalmente costituite da regole di imputazione deterministica (R.I.D.) del tipo:

SE [incompatibilità] ALLORA [localizzazione e correzione errore]

a condizione di incompatibilità esprime delle relazioni inammissibili intercorrenti tra due o più variabili; la localizzazione consiste nell’indicazione di quali variabili considerare errate, ed eventualmente di quali valori assegnare per correggerle.
Un record, durante l'esecuzione della procedura di correzione, potrà causare l'attivazione delle regole in corrispondenza delle quali è verificata la parte SE: in tal caso saranno modificate le variabili indicate nella parte ALLORA assegnando loro valori predefiniti o scelti in altro modo

Al contrario di quello precedente, l'approccio probabilistico non prevede la definizione a priori, per ogni situazione di errore, dell'elenco delle azioni da intraprendere per eliminare gli errori dai dati: l'esperto statistico deve limitarsi a definire le situazioni di errore, demandando ad un prefissato algoritmo il compito di riportare il record ad una situazione di correttezza.
L'approccio probabilistico ha il suo riferimento nella cosiddetta metodologia Fellegi-Holt (Fellegi e Holt 1976).

Un piano probabilistico è composto, da regole di incompatibilità, che seguendo la terminologia di Fellegi e Holt, vengono chiamate edit in forma normale. Un edit in forma normale è costituto dalla congiunzione di due o più condizioni sui valori di variabili del record: l'edit è attivato da un dato record quando sono verificate simultaneamente tutte le condizioni in esso definite. La parte SE di una R.I.D. (cioè quella che esprime la situazione di errore) può corrispondere a uno o più edit in forma normale.

L'algoritmo che elimina gli errori provvede a determinare, per ogni record e per ogni situazione di errore, le variabili da modificare in modo da avere la certezza di eliminare gli errori individuati e, soprattutto, di non introdurne altri nel record, minimizzando nel contempo il numero di variabili modificate.

Gli edit in forma normale definiti dall'esperto, gli edit espliciti, sono sufficienti ad individuare la presenza di errori all'interno dei record di un file, ma non a garantire una imputazione di valori corretta ed ottimale. Infatti, la scelta di quali variabili modificare e di quali nuovi valori assegnare, è condizionata dai vincoli di correttezza (non introdurre nuovi errori nel record) e di minimalità (modificare il minor numero possibile di variabili). A tal fine, occorre considerare anche i cosiddetti edit impliciti, derivabili da quelli espliciti ed individuare così l'insieme minimo e completo degli edit.

La metodologia di Fellegi-Holt prevede che, una volta definiti gli edit espliciti, questi siano analizzati sia per scoprire la presenza di contraddizioni e/o ridondanze che per derivare tutti gli edit impliciti in essi contenuti.

La fase dell'analisi e della derivazione degli edit, produce un insieme di regole che ha le seguenti caratteristiche:

1. è minimale, privo cioè di edit ridondanti;
2. è corretto, privo di edit tra loro contraddittori;


3. è completo, in quanto contiene esplicitamente tutti gli edit implicitamente definiti all'interno di quelli iniziali.

La derivazione degli edit impliciti nell'ambito della metodologia Fellegi-Holt rappresenta un'operazione altamente critica: infatti la generazione degli edit impliciti richiede un numero di operazioni che è esponenziale rispetto al numero di edit espliciti. Spesso la derivazione degli edit impliciti risulta impossibile; in questo caso si ricorre ad euristiche che permettono di limitare a priori il numero delle operazioni necessarie e alla partizione dell'insieme iniziale di edit suddividendo la fase di correzione in tante sottofasi quanti sono i sottoinsiemi di edit cosi definiti.

Quali sono i vantaggi e gli svantaggi dei due diversi approcci?  Molto schematicamente, possiamo ascrivere ai vantaggi del metodo deterministico:

Quest'ultimo elemento è di una certa importanza: ad esempio, sulla base della fiducia che lo statistico nutre rispetto alla correttezza delle variabili, egli può implicitamente stabilire una gerarchia tra queste, orientando la modifica verso quelle che egli ritiene meno affidabili.

Tra gli svantaggi ed i limiti del deterministico citiamo:

In caso di errori sistematici, l'approccio deterministico si rivela, nella maggior parte dei casi, il più adatto, soprattutto nel passo di localizzazione degli errori. L'applicazione del probabilistico, al contrario, rischia di introdurre nuove distorsioni nei dati, qualora non si pesino opportunamente le variabili per tener conto della sistematicità di tali errori.

I vantaggi dell'approccio probabilistico, speculari ai limiti di quello deterministico, sono:

Una volta che siano state individuate le variabili affette da errore che hanno causato l'attivazione delle incompatibilità, oppure i cui valori sono stati giudicati outlier, occorre procedere alla fase di imputazione di tali variabili, onde rimuovere gli errori, cercando di ripristinare i valori veri. I possibili metodi per l'imputazione sono numerosi (Kovar e Whitridge 1995). Tra questi citiamo: La definizione, lo sviluppo e la messa a punto di una procedura automatica per il controllo e la correzione dei dati dovrebbero essere finalizzati a far sì che questa Tra i due approcci descritti in precedenza, è quello probabilistico l'unico in grado di assicurare questo tipo di risultato, almeno in una situazione di tipo "ideale", tale cioè che la tipologia degli errori presenti nei dati sia di carattere stocastico, o quantomeno che la componente sistematica negli errori sia trascurabile. Se ciò non avviene, se cioè gli errori sistematici sono presenti in quantità tale da non poter essere considerati trascurabili, deve essere introdotta una specifica componente deterministica nella procedura, dato che è dimostrato che l'approccio probabilistico non è adatto al trattamento di tali errori, ma anzi è suscettibile di introdurre ulteriori distorsioni nei dati.

La soluzione ottimale dovrebbe prevedere il trattamento congiunto in un unico passo di entrambe le tipologie di errore (Barcaroli 1998). Nella pratica questo non è possibile, non disponendosi ancora di implementazioni degli opportuni algoritmi. In fase di disegno della procedura complessiva occorre quindi:

a) prevedere la massimizzazione del ricorso all'approccio probabilistico, disegnando in primo luogo un piano di compatibilità che ricalchi i principi della metodologia Fellegi-Holt;
b) individuare quindi le eventuali componenti sistematiche dell'errore e prevedere, come eccezione, l'applicazione di procedure deterministiche per la loro rimozione.
In prospettiva, qualora si possa intervenire sul processo di raccolta e registrazione dei dati, e si abbia quindi la possibilità di rimuovere le cause che producono gli errori sistematici, occorre procedere in tal senso, al fine di minimizzare e, al limite, eliminare il ricorso a passi di tipo deterministico (che sono comunque suscettibili di introdurre distorsioni addizionali nei dati).

Tutto ciò implica che la fase di messa a punto delle procedure non è finalizzata solo ad una ottimizzazione della procedura probabilistica ideata nella fase di disegno (verifica della completezza e correttezza del piano di compatibilità), ma anche all'individuazione della componente sistematica degli errori (per lo sviluppo di passi deterministici), ed alla identificazione delle cause di tali errori (per la loro rimozione dal processo produttivo).

Il software CONCORD (CONtrollo e CORrezione dei Dati), sviluppato da E. Riccini Margarucci e P. Floris, permette di applicare sia l’approccio probabilistico che quello deterministico, quest’ultimo integrato col metodo del donatore, mediante una metodologia la cui sequenza di passi è contenuta nella figura 1.1.

Nel software sono infatti disponibili tre diversi moduli, sviluppati a suo tempo indipendentemente presso l’ISTAT:

Nella metodologia proposta, mediante l’utilizzo del modulo SCIA (sviluppato da E. Riccini Margarucci, F. Silvestri e P. Floris) in CONCORD è possibile effettuare le operazioni 1 e 2, illustrate in figura 1.1, di definizione ed esecuzione del passo probabilistico della procedura complessiva di controllo e correzione.

Il passo di definizione prevede:

Il passo di esecuzione prevede l’applicazione dell’insieme completo di edit così ottenuto all’insieme dei dati da trattare. Ciò produce un insieme di statistiche (record esatti e record errati; distribuzione degli edit per frequenza di attivazione; variabili per frequenza di imputazione) il cui esame da parte dello statistico (operazione 3: analisi dei risultati) permette l’individuazione di eventuali errori sistematici.

Qualora questi esistano, l’utilizzo congiunto dei moduli GRANADA e RIDA permette di effettuare le operazioni 4 e 5 di definizione ed esecuzione del passo deterministico.

GRANADA permette di definire le regole di tipo SE-ALLORA già introdotte. Tenendo conto che la parte SE di tali regole esprime la stessa condizione di errore definita in un corrispondente edit del passo probabilistico, CONCORD dà la possibilità di importare tutte le regole già definite mediante SCIA, inizializzando in tal modo il modulo deterministico. L’utente non dovrà far altro che scegliere quali regole mantenere, e per queste indicarne la parte ALLORA, che corrisponde alla localizzazione deterministica dell’errore.

A questo punto, applicando le regole così definite, è possibile bipartire l’insieme iniziale dei dati in due sottoinsiemi, quello dei dati esatti e quello dei dati contenenti errori.

GRANADA (sviluppato da E. Riccini Margarucci, P. Floris, R. Ciacci e T. Buglielli) consentirebbe anche di imputare direttamente le variabili giudicate errate, indicando il valore puntuale da assegnare; da un punto di vista statistico quest’operazione è però da evitare, o quantomeno da ridurre al minimo, in quanto può comportare rilevanti distorsioni delle distribuzioni originali. E’ bene quindi limitare l’uso di GRANADA all’impostazione di caratteri di controllo nelle variabili giudicate errate, caratteri che verranno utilizzati dal modulo RIDA per riconoscere i valori da imputare.

Mediante RIDA (sviluppato da G. Massimini, T. Buglielli e R. Colosi) la correzione si esegue prelevando i nuovi valori da un record corretto simile al record errato (Abbate 1996). La similitudine si calcola utilizzando alcune variabili, dette di "match", scelte sulla base della loro correlazione con la variabile da correggere. Questo metodo presuppone che le variabili utilizzate per calcolare la distanza fra record errato e donatore siano corrette. Per la ricerca del donatore si procede a confrontare il record errato con tutti i record esatti, scegliendo quello con distanza minima. Le variabili, utilizzate per individuare la similitudine fra i record, si distinguono in variabili di strato e variabili di match. Le variabili di strato si utilizzano per limitare la ricerca all’interno di sottoinsiemi di record che presentano uguali valori di tali variabili. Le variabili di match si utilizzano per calcolare la funzione di distanza mista per tutti i record dello strato. Il donatore prescelto è quello più vicino al record errato, cioè quello con distanza minima.